查看原文
其他

超越咨询顾问的算力,在用户理解和维护:大数据改变管理咨询(二)

数据冰山 2022-04-11



消费品企业应该如何使用内部产生以及外部采集的数据,像互联网公司一样建立用户画像与会员体系,以数据驱动的方式进行精细化的生产,运营和销售?


传统的管理咨询公司,虽然有无数顶尖的大脑,但是他们的大脑只靠Excel的辅助,这样的算力,能不能满足上述的需求?

上一期我们给大家详细介绍了BI:超越咨询顾问的算力,在BI(一)     


本期我们再放一个大招

“ 如何建立用户画像和用户体系 ” 

无论是提供商品还是服务,用户画像都是数据挖掘工作的重要一环。一个准确和完整的用户画像甚至可以说是许多互联网公司赖以生存的宝贵财富。我们也已经听过了无数用户画像的神奇功能和成功案例,比如亚马逊,淘宝的机器学习团队使用用户的浏览行为,购物车状态和购买记录开发关联推荐系统,使点击率和销量大幅提升;比如应用市场根据过往APP安装记录记对每个使用者进行精准推荐;再比如音乐,图书和新闻网站通过协同过滤的方式为用户呈现个性化的定制内容。


而管理咨询公司只能通过人肉的市场调研和抽样的方式,进行粗糙的用户画像。在用户百分百:大数据改变管理咨询(一)中,已经有充分的说明。


对于消费品公司而言,虽说用户行为数据的丰富程度和互联网产品相比稍显逊色,但也拥有庞大的用户信息和交易数据沉淀散落在各个IT系统中,而且更真实,噪音更少。只不过在传统消费品公司里会编程,会处理数据的人要比互联网公司少太多太多。在我们深入了解了这些用户信息和交易数据,并对它们进行了清洗,汇总,打通之后,发现数据质量要比我们想象的好很多,可以支撑许多有意思的用户画像的建立。在这里我会分享一些画像的流程和思路,供大家参考。


数据标签化

用户画像的底层是机器学习,那么无论是要做客户分群还是精准营销,都先要将用户数据进行规整处理,转化为相同维度的特征向量,诸多华丽的算法才可以有用武之地,像是聚类,回归,关联,各种分类器等等。对于结构化数据而言,特征提取工作往往都是从给数据打标签开始的,比如购买渠道,消费频率,年龄性别,家庭状况等等。好的特征标签的选择可以使对用户刻画变得更丰富,也能提升机器学习算法的效果(准确度,收敛速度等)。


我们在项目中根据不同维度提取了数十个多个标签,图7展示了其中的一部分。这些标签主要有三个来源:


一个类是在IT系统中可以取得的信息,比如办会员卡时留下的信息(性别,年龄,生日),购买渠道,积分情况等;


第二类是可以通过计算或是统计所获得的,比如用户对某类促销活动的参与程度,对某种颜色/款式商品的偏好程度,是否进行过跨品牌的购买等;


第三类则是 通过推测所得,比如送货地址中出现“宿舍”,“学校”,“大学”等字样,则用户身份可以推测为学生,出现“腾讯大厦”,“科技园”等信息时,则可判断是上班族,并有很大概率是技术从业者。


在标签的设计上也带有较强的行业性,比如是否偏好购买当季爆款或是新品多于经典款(时尚度);是否更倾向购买低价或打折商品(价格敏感度);是否喜欢购买高价商品或限量版(反向价格敏感度)。

图7:特征标签


对于已经打好的标签,根据不同的分析场景进行离散化,或将分类类型的标签拆成多个0/1标签,就可以进行一些机器学习的建模了,比如聚类,分类,预测,或者关联性分析,最终生成的向量维度在数千个。


说到这里,咨询公司里面的Excel是不是已经开始快宕机了?


关联性分析

关联性分析(Association rule learning)是在零售行业中应用最广泛的一种机器学习方法,营销学里经典的“啤酒/尿布”(超市里购买尿布的消费者往往同时购买啤酒)案例也已经是家喻户晓。虽然后来被证实这是一个为了教学目的而虚构出来的案例,但从其上镜率也可以看得出关联性分析在零售领域的重要程度,或许这个例子在国内改成“泡面/火腿肠”会更亲切。


关联性分析的相关文章有非常多,支持度(Support),置信度(Confidence)和增益(Lift)这些基本概念的介绍在这里就不赘述了,各位如果有兴趣可以参见Wikipedia的Association rule learning页面。


和购物篮关联规则不同,我们数据挖掘过程中的基本单位是用户,而特征向量则是基于提取出的用户标签而构建的,下表是一个简单的示例。


----------------第一个例子-----------------



学生中等价格敏感低暗色系偏好高活动参与度上海

用户A

11110
用户B00011
用户C00110


我们获得了一个NxM的特征矩阵,N为用户数,量级在百万级,M为特征维度,约数千个的二元标签。基于这个特征矩阵我们使用了最基础的Apriori算法计算相关度,并在支持度,置信度和增益三个层面设置threshold,输出符合要求的关联规则。


由于输出的关联规则可能涉及到客户隐私,在这里仅做一个示例。下表中的前项(antecedent)为用户的所在地,后项(consequent)为最高的活动敏感度, 结果如下:


前项后项支持度%置信度%增益
上海最高活动敏感8.23467.343.3
宁波最高活动敏感
5.39584.823.1
金华最高活动敏感
3.12570.232.7
杭州最高活动敏感
4.23454.272.2
深圳最高活动敏感
4.23550.351.7

可见上以及江浙地区对于促销活动的敏感度和参与度是最高的,增益均高于两倍,而上海则是达到了3.3倍之多。


----------------第二个例子-----------------


另一个例子是颜色的关联规则,下表展示了用户对于不同颜色的产品以及SKU之间的偏好特征,可见某些用户是有较强的颜色偏向的,比如金色和银色之间,咖啡色和绿色之间等等。如果运用到商业实践,因为在买过紫色和杏色的用户中,接下来会比较会买金色;把这些数据给到地面团队或者线上团队,这时候推荐颜色以及配货就比较轻松一些。


前项
后项支持度%置信度%增益
紫色,杏色金色3.23453.122.6
金色银色  5.69245.542.5
金色,绿色黄色3.34332.332.4
金色,咖啡色绿色3.01231.112.2
银色,咖啡色绿色4.39031.652.2

值得注意的是,做关联分析时要确保前后项以及的独立性(independence)。由于在提取特征时有些维度本身就是从相同或相关的字段提取出来的,比如用户的星座以及出生月份,如果不做控制的话就会得出“11月出生的天蝎座特别多”这样让人啼笑皆非的规则。


RFM Model

RFM模型是用户价值研究中的经典模型,基于近度(Recency),频度(Frequency)和额度(Monetory)这3个指标对用户进行聚类, 找出具有潜在价值的用户, 从而辅助商业决策,提高营销效率。如果对RFM模型的细节感兴趣可以参见Wikipedia中有关RFM模型的页面。


RFM建模所需要的数据源是相对简单的,只用到了购买记录中的时间和金额这两个字段。我们基于交易数据中用户的最后一次的购买时间,购买的次数以和频率,以及平均/总消费额对每个用户计算了三个维度的标准分。然后我们对于三个维度赋予了不同的权重,再基于加权后的分值应用K-Means进行聚类,根据每种人群三个维度与平均值之间的高低关系,确定哪些是需要保持用户,哪些是需要挽留的用户,哪些是需要发展的用户等。


在将这些客户圈出之后,便可以对不同客户群使用不同针对性地营销策略(引导,唤醒等),提高复购率与转化率。值得注意的是,三个维度的权重制定并没有统一的标准,比较通用的方法是用层次分析法(AHP),再结合行业以及具体公司的特点进行优化。


图8是通过RFM模型进行用户聚类后的结果,可以清楚看到几个人群用户的数量以及比例。同时这些分群也会作为标签重新输入至用户画像以及CRM当中,作为圈定特定用户群以及营销的入口。



图9展示了用户群之间在各个维度上的分布。消费,金额,频率这些模型直接相关的标签上自然有非常显著的差异,同时在一些垂直(orthogonal)的特征维度上也有很大的不同。


用户体系

最后,对消费品公司而言,所有在数据挖掘和用户画像方面的投入,根本目的还是要提升业务表现,所以如何将数据挖掘的结果进行落地就变成了尤为关键的一环。对于用户画像所输出的所有标签和关联规则,都需要通过某种渠道抵达用户群。

这种渠道可以是一个强大的CRM系统,可以通过不同的标签圈定用户群,定向发布营销方案;也可以是一个会员客户端,推送个性化的打折券或新品推荐;甚至是自营电商,实现像天猫京东一样的数据自生产和自消费的循环。


而如何构建这种渠道,同时如何与现有的会员卡体系打通,如何高效地设计和使用积分系统,在这里先卖个关子,我们会在稍后的时间里和大家分享。也欢迎随时咨询。

数据报告制作专家:文图

我们为用户打造的可在线编辑、即时生成数据报告的工具-文图,上线啦!!!


预设有海量的模板和配色方案,可最大程度方便用户数据及内容的呈现。


更多精彩请访问文图网站

www.wentu.io

历史文章

001.蓝领互联网那些事儿--普工篇

002.蓝领互联网那些事儿--招聘篇

003.蓝领互联网那些事儿--WiFi篇

004.Same--站在社交的长尾上

005.说说挂号网那些事儿

006.哈弗H8:长城汽车的天王山之战

007.迅雷的水晶计划是抓救命草还是吹泡泡

008.呷哺呷哺的未来发展

009.汽车之家:一叶知秋到一家知车

010.基于数据的主流SUV的口碑分析及统计

011.非爆款图片社交--精打细算的Nice

012.什么品牌或型号的汽车最保值?

013.一年中哪个月买车最优惠?

014.深圳房价大揭秘

*015.黄焖鸡米饭是怎么火起来的?

016.俏江南的发展与衰落

*017.如何看待麦当劳和肯德基开始现磨咖啡的推广

018.深圳楼市洞察报告

019.数据分析拉勾网的招聘效果

020.RIO是如何席卷大江南北的?

021.学区房到底闹哪样?

022.起底国内快捷酒店

023.经历这么多,肯德基还好吗?

*024.下半年深圳房价将如何发展

025.最新互联网行业职位分析

026.奥迪奔驰宝马入门级豪车你选谁

027.重庆小面是如何风靡全国的

028.中国普通家庭为什么不像欧美家庭一样大量食用牛肉?

029.北上广深哪里过得更潇洒

030.尿不湿和尿布哪个更好?

031.沙县小吃是如何衰落的

032.故都的霾里,戴口罩也是然并卵?

033.万科的股权大战,反击或自我救赎的打法其实很成套路

034.圣诞大餐去哪吃才能赢得她的芳心?

035.新年将至,互联网人怎么跳槽?

036.用千万级大数据说话:钢板厚薄是买车痛点吗?

037.大数据解读神车党:铁粉已经出现断代

038.一个初创团队在大数据领域引发的“血案”

039.脑洞大开-如何用大数据的思维回答问题

040.沧海横流,看行业起伏(2015年)

041.大数据画像:宝马车主究竟有多任性?

042.超越咨询顾问的算力,在BI:大数据改变管理咨询


注:*号文章为知乎选中后发表在知乎日报的文章

015刊登在5月23日知乎日报

017刊登在6月19日知乎日报

024刊登在7月31日知乎日报

029刊登在11月21日知乎日报


微信公众号:数据冰山

行业数据挖掘与分析


(注:所有数据来源于内部数据挖掘团队,文章分析均为原创,如需引用或对此类数据有兴趣的朋友可以联系我们)


知乎专栏:数据冰山


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存